Claude Fable 5 被越狱!12万内部系统提示词泄露到 GitHub

Anthropic旗舰新模型 Claude Fable 5 发布仅数天,其核心安全系统就被知名越狱研究者 elder_plinius(“解放者普林尼”)全面攻破,完整内部系统提示词已公开至 GitHub。

据 Plinius 披露,Fable 5 内部系统提示词长度约12万字符,直接暴露了 Anthropic 的安全逻辑构造。

Anthropic 在发布前 reportedly 投入超过1000小时,由顶级红队和赏金猎人进行严苛测试。官方定位 Fable 5 为迄今最强、最安全、适合软件工程与知识工作的 Mythos 级模型。其安全设计采用“双模型”架构:核心是强大前沿模型,外围包裹复杂的安全分类器。一旦检测到高风险请求(如漏洞利用、危险化学、心理操纵等),系统会无缝切换至更保守的后备模型 Claude Opus 4.8。

Claude Fable 5 被越狱!12万内部系统提示词泄露到 GitHub

然而,Plinius 仅用24小时就突破了这一机制。他并未依赖单一“神奇提示词”,而是采用高度工程化的“群狼战术”:部署多智能体协同攻击系统。

攻击手法包括:

  • 多智能体协作(测试、分析、迭代重写);
  • 长上下文操控(先建立学术化合规对话,再逐步引导);
  • 语义拆解与重组(将危险流程拆成无害知识点,再拼接);
  • 字符混淆(混合拉丁与西里尔同形字符,绕过分类器模式识别)。

此事件显示,当前 AI 安全系统正面临来自 AI 自身驱动的动态、自动化、迭代式攻击。传统静态分类和后备切换机制在面对协同智能体攻击时显得脆弱。

完整系统提示词已在 GitHub 公开(elder-plinius/CL4R1T4S),Anthropic 的安全内幕被彻底暴露。